查看原文
其他

用了这么多年的PCA可视化竟然是错的!!!

生信宝典 生信宝典 2022-03-28

本文启发于上周开的单细胞转录组课程,本次课程由资深单细胞算法研究者戴老师主讲,深入浅出,各部分分析原理从理论到应用层面解释透彻,最新流程,最新代码,绝对值得学习。课程尚未结束,我就迫不及待向一位未能安排出时间参加此课程的老友及时安利了视频课。

言归正传,介绍培训课程的一张幻灯片:很多PCA可视化结果都是不合适的。

PCA或PCoA是常用的降维工具,之前有几篇文章介绍PCA的原理和可视化。

默认PCA/PCoA软件输出的图通常为正方形或立方体,比较常见的2维PCA可视化图的长宽比是1:1。虽然常见,但这是错误的

下面这张图展示了一套模拟的两簇高斯分布数据的PCA结果展示,Figure a和b是错误的长宽比,结果看上去有4簇。Figure c和d是正确的长宽比,d中的颜色是正确的分组关系。

实际上,PCA图的长宽比应该与各个维度的特征值的比值一致。因为特征值反应各个主成分所解释的原始数据的变异度(方差),需要保证在不同的主成分轴上,解释的单位长度相同,所以长宽比也要有讲究。

如果用基于ggplot2的工具绘图(ggplot2高效实用指南 (可视化脚本、工具、套路、配色)),处理起来很简单,加一个coord_fixed(1)即可。

借用PCA主成分分析实战和可视化 附R代码和测试数据中的代码

fviz_pca_ind(pca, col.ind=data_t$conditions, mean.point=F,

addEllipses = T, legend.title="Groups") +

coord_fixed(1) # 关键的增加

If the relationship between the height and the width of a plot is arbitrary, an adequate picture of the data cannot be attained. Two-dimensional PCA plots with equal height and width are misleading but frequently encountered because popular software programs for analyzing biological data often produce square (2D) or cubical (3D) graphics by default. Instead, the height-to-width ratio of a PCA plot should be consistent with the ratio between the corresponding eigenvalues. Because eigenvalues reflect the variance in coordinates of the associated PCs, you only need to ensure that in the plots, one “unit“ in direction of one PC has the same length as one “unit” in direction of another PC. (If you use ggplot2 R package for generating plots, adding + coord_fixed(1) will ensure a correct aspect ratio.)

参考文献:https://doi.org/10.1371/journal.pcbi.1006907.g002

更多常见错误解析见下:

Excel改变了你的基因名,30% 相关Nature文章受影响,NCBI也受波及

为什么会搞反狗脑 - 我们是不是直觉的奴隶

WGCNA分析,简单全面的最新教程

一文掌握GSEA,超详细教程

基于200篇文献对中式英语常见错误的人工总结 (附学习体会和写作视频)

什么,你算出的P-value看上去像齐天大圣变的庙?

为什么GEO2R/GEOquery的结果可能是错的?

原来你是这样的软连接

参考文献中杂志名字格式混乱问题一次解决 - 修改style是没用的

这么做可以保证文章引用!?标题中不要带有连字符、上标、下表等复杂表示形式~

为啥我的Python这么慢 (一)

被高中生物骗了这么多年,原来人体内细胞的DNA是有不同的?

跟随美国博导12年,我学到最深刻的不是科研,而是这个。。。

NGS基础 - 高通量测序原理

易生信系列培训课程,扫码获取免费资料

更多阅读

画图三字经 生信视频 生信系列教程 

心得体会 TCGA数据库 Linux Python 

高通量分析 免费在线画图 测序历史 超级增强子

生信学习视频 PPT EXCEL 文章写作 ggplot2

海哥组学 可视化套路 基因组浏览器

色彩搭配 图形排版 互作网络

自学生信 2019影响因子 GSEA 单细胞 

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存